[2023年9月13日号]個人的に気になったModern Data Stack情報まとめ
さがらです。
Modern Data Stack関連のコンサルタントをしている私ですが、Modern Data Stack界隈は日々多くの情報が発信されております。
そんな多くの情報が発信されている中、この2週間ほどの間で私が気になったModern Data Stack関連の情報を本記事でまとめてみます。
※注意事項:記述している製品のすべての最新情報を網羅しているわけではありません。私の独断と偏見で気になった情報のみ記載しております。
Modern Data Stack全般
The State of Data Meshが開催
Atlan社の主催で、「The State of Data Mesh」というイベントが開催されました。
Data Meshの考案者であるZhamak氏をはじめ、dbt Labs社のCEOであるTristan氏、Monte Carlo社のCEOであるBarr Moses氏、Atlan社のCEOであるPrukalpa氏、など登壇者が非常に豪華なイベントです。
下記のURLより、メールアドレスの登録は必要ですが録画を見ることも出来ます!
Data Warehouse/Data Lakehouse
Snowflake
Data Cloud World Tour Tokyoが開催
Snowflakeのオフラインイベントとして、Data Cloud World Tour Tokyoが開催されました!私は主にブース対応をしていたのですが、台風の影響を感じさせないほど参加者が多く大盛況でしたね!
弊社でも各セッションのレポートブログを書いておりますので、ぜひこちらからご覧ください。
外部のAPIを叩けるプロシージャやUDFが実装できるExternal Network Accessがパブリックプレビュー
新機能として、External Network Accessがパブリックプレビューとなりました。
実装例としては下記の記事のように、Open AIのAPIを叩くプロシージャの作成、BigQueryへのFederated Queryを用いたSnowflakeのデータとのJOIN、など幅広い用途で使えそうです!
2023年8月のSnowflakeに関する新着情報まとめ記事
Snowflake Developers & Community Updateから、2023年8月のSnowflakeに関する新着情報まとめ記事が出ていました。
個人的には、無料のNative App Bootcamp、新しいNative AppのQuickstart、Dynamic Tableのエラー通知、などが気になりました。
ユーザー自身が管理するSalesforceのデータをZero ETLでSnowfake上で使用できる機能が一般提供
Salesforce Data CloudからSnowflake Data Cloudを使用したBring Your Own Lake (BYOL)データ共有の一般提供を発表しました。
これまでSalesforceのデータを使用することを考えると何かしらのELT/ETLのツールやコードを用いてロードしないといけなかったですが、この機能を使うことでこれらのツールやコードが不要になるかもしれません!まさにZero-ETLですね。
SnowflakeでKinesis Data Firehose の一行に連なった形式のJSONがロードできるようになりました
個人的な事情もあってインパクトが大きかった記事なのですが、SnowflakeでJSONをロードする際に、1行に連なった形式のJSONもロードできるようになりました!
特にKinesis Data Firehoseから出力したJSONファイルはこの1行に連なった形式のため、特に加工をせずともそのままSnowflakeにロードできるのは嬉しいですよね。
Data Transform
dbt
dbt CloudでDeploy JobsとCI Jobsで設定が分かれるように ※Betaとして提供
dbt Cloudでは元々ジョブのトリガー設定でPull RequestをトリガーにすることでCIのジョブを実行できましたが、これからのdbt Cloudでは「Deploy Jobs」と「CI Jobs」という形でジョブの作成時に選択して設定できるようになります。※2023/9/13時点ではBetaとして提供
以前のCIジョブとの違いとしては、CIジョブの実行中に新しいコミットがされた場合、その実行中のCIジョブをキャンセルする機能などが追加されています。
dbt-utilsのチートシート
Datacoves社より、dbt-utilsのチートシートが出ていました。
dbt-utilsで実行できるテストやマクロは非常に多くあるため、どんなものがあるかをざっと知りたいときに便利だと思います。
Data Application
Streamlit
任意のファイルをPandas DataframeとしてロードしLangChainとOpenAIで実装されたチャットボットで分析できるアプリの実装例
ExcelでもCSVでもPandas Dataframeとしてロードし、LangChainとOpenAIで実装されたチャットボットでロードしたデータについて自然言語で分析できるアプリの実装例が、Streamlitの公式ブログとして出ていました。
Business Intelligence
Tableau
特定のボタンを押すことで対象のグラフをズームアップする方法
phData社より、特定のボタンを押すことで対象のグラフをズームアップする方法を述べた記事が出ていました。
リンク先のGifを見ると、Tableau経験者ほど「こんなことできるの!?」とびっくりすると思いますw
ThoughtSpot
Google Workspacesとの連携機能をいくつか発表
Next'23の開催に併せて、Google Workspacesとの連携機能をいくつか発表していました。
- ThoughtSpot for Connected Sheets
- スプレッドシートから、ThoughtSpotを介してBigQuery上のテーブルを参照してカラム選択して集計結果を出力可能に
- スプレッドシート用のThoughtSpot Analyticsの最新Verが公開 ※ThoughtSpotユーザーじゃなくても、誰でも無料で使用可能!
- スプレッドシート上のデータを用いて可視化可能
- 使い方やどんなことができるかの詳細はこちらの記事をご覧ください。
- ThoughtSpot Connected Slides
- BigQueryからデータを取得してすぐにスライドにグラフを入れることが可能
Data Catalog
Quollio
Quollio Data Catalogを拡張しQuollio Data Intelligence Cloudとしてリデザインすることを発表
Quollio Technologies社が提供するデータカタログQuollio Data Catalogについて、機能拡張しQuollio Data Intelligence Cloudとしてリデザインすることを発表しました。
下記の記事からの引用ですが、”データをただの情報として処理するのではなく、メタデータなど関連情報も含めて総合的にとらえることで、目的に沿った有益な情報へと整理する「データインテリジェンス」の考え方に着目”、"データ資産に纏わる、データ活用をする上での重要情報であるメタデータを一元管理し、企業のデータ活用・データガバナンスの活動を根本から支えます"、とあるため、従来のデータカタログよりも広義にデータ活用を支えるためのプラットフォームとして発展していきそうですね。
また、Quollio Technologies社のCEOより「データインテリジェンス」についての動向をまとめた記事も投稿されております。Atlan社が提唱したActive Metadataとの違いについてもわかりやすく述べている、参考になると思います。
Secoda
AlationとSecodaの比較記事
Secoda社による記事ですが、AlationとSecodaの比較記事が出ていました。
Secoda社の記事ということに注意は必要ですが、Gitでのバージョン管理機能やAI機能などSecodaだけが持つ機能はどういったものかを知るには良い記事だと思います。
Data Activation (Reverse ETL)
Hightouch
イベントデータの収集を行う「Hightouch Events」を発表
Hightouchが新機能として、イベントデータの収集を行う「Hightouch Events」を発表しました。まだ詳細はわかっていないですが、Hightouchを用いてDWHへ直接イベントデータを取り込むことができる新機能のようです。
下記の記事を読んでの私の理解ですが、背景としてはイベントデータの収集のためにCDPを使っている企業が多く、それらの企業がDWHをSSoTとしたCDP=Composable CDPにより移行しやすくするための新機能と理解しています。
個人的には、これまでHightouchはReverse ETLやCustomer Studioを用いたセグメント分けなど「DWHにデータが入ってから」の機能に特化していた印象なのですが、今回の新機能は「データの取得」というところで、この領域に手を出すのか!と驚いていますw
Data Quality・Data Observability
Datafold
Datafold Cloudに関する解説記事
Datafold Cloudに関する解説記事が出ていました。Cloudならば、レコードレベルで異なる可能性のあるレコードを確認したり、CIによる差分分析、BIツールまで含めたカラムレベルのリネージ、ということができるようです。
OSS版としてdata-diffもありますが、その違いについては別の記事が参考になりますので、こちらもご覧ください。